[Day 26] Hadoop 生態系

第 12 屆 iThome 鐵人賽

DAY 26

自我挑戰組

12th鐵人賽 hadoop

1925 瀏覽

歡迎來到第 26 天，今天要分享一個 Hadoop 中很重要的一個概念 - MapReduce。

接下來的分散式運算篇章中主要會是以學習筆記的形式呈現，如果是以Hadoop 來說主要會是以它的三大元素作為目標。

說到Hadoop，大家下意識的會想到赫赫有名的Spark，但Spark 是到後期對於MapReduce 的替代方案，等等什麼那什麼是 MapReduce？這就要說到Hadoop 最原生的三個模組

在目前學習到的資料中，MapReduce 是最重要的邏輯運算中心，所有的運算邏輯都會發生在這個模組當中。

運算就要有資料，資料就要有儲存的空間與方式，HDFS(Hadoop Distributed File System) 就是一個分散式檔案管理系統，當然在現在龐大的生態系中也有其他的結局方案，但他是最一開始的結局方案。

當分散式運算的架構越來越大時，就需要一個管理系統，而在 Hadoop 中的 YARN(Yet Another Resource Negotiator) 就是一個資源的管理系統，讓每個節點的效能可以最大化。

以上三個模組就是Hadoop 生態系裡面重要的元素，也會是最後幾天的學校目標，那麼今天就先到這裡！我們明天 MapReduce 見！

系列文

資料蒐集與分散式運算 30 天共 30 篇

19 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

IT邦幫忙